Métodologia:
Este projeto fez uso de informações públicas sobre o rendimento de alunos do ensino secundário de duas instituições de ensino portuguesas: Gabriel Pereira (GP) e Mousinho da Silveira (MS). A coleta de dados ocorreu através de relatórios escolares e questionários aplicados aos estudantes.
O dataset possui características associadas a:
- Notas dos três períodos (G1, G2, G3).
- Informações demográficas: idade, gênero, local de residência (urbano ou rural), número de membros da família e outros.
- Fatores sociais: situação familiar, conexão com a internet, conexão amorosa, entre outros.
- Elementos acadêmicos: horas de estudo por semana, atividades extracurriculares, suporte educacional, ausências e reprovações passadas.
Dicionário de Variáveis
- school: escola do estudante (GP ou MS)
- sex: gênero (F ou M)
- age: idade (15 a 22 anos)
- address: tipo de endereço (U - urbano, R - rural)
- famsize: tamanho da família (LE3 ≤ 3, GT3 > 3)
- Pstatus: situação de coabitação dos pais (T - juntos, A - separados)
- reason: motivo para escolha da escola (home, reputation, course, other)
- Mjob / Fjob: profissão da mãe/pai (teacher, health, services, at_home, other)
- Medu / Fedu: escolaridade da mãe e do pai (0 a 4)
| Código | Nível de Educação dos responsáveis |
|---|---|
| 0 | nenhum |
| 1 | Fundamenal I |
| 2 | Fundamenal II |
| 3 | Ensino Médio |
| 4 | Ensin Superior |
- guardian: responsável (mother, father, other)
- traveltime: tempo de deslocamento até a escola (1 - <15min a 4 - >1h)
- studytime: tempo de estudo semanal (1 - <2h a 4 - >10h)
- failures: número de reprovações anteriores (0 a 4)
- schoolsup: apoio educacional extra (yes/no)
- famsup: apoio da família (yes/no)
- paid: aulas extras pagas (yes/no)
- activities: atividades extracurriculares (yes/no)
- nursery: frequentou pré-escola (yes/no)
- higher: desejo de cursar ensino superior (yes/no)
- internet: acesso à internet em casa (yes/no)
- romantic: possui relacionamento amoroso (yes/no)
- famrel: qualidade do relacionamento familiar (1 - ruim a 5 - excelente)
- freetime: tempo livre após a escola (1 a 5)
- goout: frequência de saída com amigos (1 a 5)
- Dalc: consumo de álcool durante a semana (1 a 5)
- Walc: consumo de álcool no final de semana (1 a 5)
- health: estado de saúde (1 - muito ruim a 5 - muito bom)
- absences: número de faltas (0 a 93)
Variáveis de Notas:
G1: nota do 1º período (0 a 20) G2: nota do 2º período (0 a 20) G3: nota final do ano (0 a 20) — variável alvo do modelo
Observação: A variável alvo G3 possui forte correlação com G1 e G2, pois estas representam avaliações dos períodos anteriores no mesmo ano letivo.
Tecnologias Empregadas
- RFID: Tecnologia proposta para automatizar o controle de presença.
- Python: Uma linguagem usada para análise e modelagem.
- Bibliotecas: Pandas,Numpy , Matplotlib, Seaborn, Scikit-Learn.
- Aprendizado de Máquina: Retorno de Floresta Aleatória.
Fluxograma do Projeto
Obtenção dos dados: Foram achados no Kaggle;
Analise e Compreensão dos Dados: Análise das relações entre as variáveis, distribuição das mesmas e interpretação dos dados;
Higienização e Pré-tratamento:
Manipulação de valores incongruentes;
Ajuste da distribuição das variáveis numéricas utilizando o MinMaxScaler.
Uso de Dummys nas variaveis binárias:
- Modelagem Preditiva:
- Divisão em grupos de treinamento e teste (80/20);
- Uso do algoritmo um Random Forest Regrassor para antecipar a pontuação final (G3) com base na frequencia;
- Uso de uma Regressão Linear para afirmar se a numero de faltas afeta positivamente na nota dos alunos.
- Métricas:
- MAE (Erro Médio Absoluto);
- MSE (Erro Médio Quadrático);
- Coeficiente de Determinação(R2).